智能论文笔记

GMN: Generative Multi-modal Network for Practical Document Information Extraction

Haoyu Cao , Jiefeng Ma , Antai Guo , Yiqing Hu , Hao Liu , Deqiang Jiang , Yinsong Liu , Bo Ren

分类：自然语言处理

2022-07-11

文档信息提取（DIE）由于其在现实世界中的各种高级应用而引起了越来越多的关注。尽管最近的文献已经取得了竞争成果，但在处理具有嘈杂的OCR结果或突变布局的复杂文档时，这些方法通常会失败。本文提出了用于现实世界情景的生成多模式网络（GMN），以解决这些问题，这是一种强大的多模式生成方法，没有预定义的标签类别。借助精心设计的空间编码器和模态感知的蒙版模块，GMN可以处理复杂的文档，这些文档很难序列化为顺序。此外，GMN可以容忍OCR结果中的错误，并且不需要字符级注释，这是至关重要的，因为对众多文档的细粒注释很费力，甚至需要具有专门域知识的注释者。广泛的实验表明，GMN在几个公共模具数据集上实现了新的最新性能，并超过了其他方法，尤其是在现实的场景中。

translated by 谷歌翻译

Automatic Configuration for Optimal Communication Scheduling in DNN Training

Yiqing Ma , Hao Wang , Yiming Zhang , Kai Chen

分类：人工智能

2021-12-27

BYTESCHEDULER分区和重新排列张测变速器，以提高分布式深神经网络（DNN）训练的通信效率。超参数的配置（即分区大小和信用尺寸）对于分区和重新排列的有效性至关重要。目前，Bytescheduler采用贝叶斯优化（BO）预先找到超级参数的最佳配置。然而，在实践中，各种运行时因子（例如，工人节点状态和网络条件）随着时间的推移而变化，使得静态确定的一拍配置结果次优为现实世界的DNN培训。为了解决这个问题，我们介绍了一个实时配置方法（称为autobyte），它自动并及时搜索最佳的超参数，因为培训系统动态地改变。 Autobyte将Bytescheduler框架与Meta网络扩展，将系统的运行时统计信息作为其输入，并在特定配置下的加速器输出预测。各种DNN模型的评估结果表明，Autobyte可以动态调整具有低资源使用率的超参数，并且比ByTescheduler中最好的静态配置提供高达33.2 \％的性能。

translated by 谷歌翻译

TaCo: Textual Attribute Recognition via Contrastive Learning

Chang Nie , Yiqing Hu , Yanqiu Qu , Hao Liu , Deqiang Jiang , Bo Ren

分类：计算机视觉

2022-08-22

由于字体之类的文本属性是文档格式和页面样式的核心设计元素，因此自动属性识别有利于全面的实用应用。现有方法在区分不同属性方面已经产生令人满意的性能，但是它们仍然在区分类似属性的情况下只有微妙的差异。此外，在现实世界中出现意外和明显的成像扭曲的现实情况下，他们的性能严重下降。在本文中，我们旨在通过提出炸玉米饼来解决这些问题，炸玉米饼是针对最常见文档场景量身定制的文本属性识别的对比框架。具体而言，炸玉米饼利用对比学习来消除由模糊和开放式属性引起的歧义陷阱。为了实现这一目标，我们从三个角度设计了学习范式：1）生成属性视图，2）提取微妙但至关重要的细节，以及3）利用有价值的视图对学习，以充分解锁预训练潜力。广泛的实验表明，Taco超过了受监督的对应物，并在多个属性识别任务上取得了最新的进步。将提供炸玉米饼的在线服务。

translated by 谷歌翻译

Quantitative Assessment of DESIS Hyperspectral Data for Plant Biodiversity Estimation in Australia

Yiqing Guo , Karel Mokany , Cindy Ong , Peyman Moghadam , Simon Ferrier , Shaun R. Levick

分类：机器学习

2022-07-06

陆地植物的多样性在维持稳定，健康和生产的生态系统方面起着关键作用。尽管遥感被认为是估计植物多样性的有前途且具有成本效益的代理，但缺乏关于如何从Spaceborne Hyperfectral数据中推断出植物多样性的定量研究。在这项研究中，我们评估了通过DLR接地传感成像光谱仪（DESIS）捕获的高光谱数据的能力，以估计澳大利亚东南部南部梯田和雪山地区的植物物种丰富度。首先通过主成分分析，规范相关分析和部分最小二乘分析从Desis光谱中提取光谱特征。然后在提取的特征和植物物种丰富度之间进行了回归，并具有普通的最小二乘回归，内核脊回归和高斯工艺回归。根据两倍的交叉验证方案，使用相关系数（$ r $）和根平方错误（RMSE）评估结果。凭借最佳性能的模型，$ r $为0.71，而南部塔林群岛地区的RMSE为5.99，而$ R $为0.62，而雪山地区的RMSE为6.20。这项研究中报道的评估结果为未来的研究提供了支持，了解太空传播高光谱测量与陆地植物生物多样性之间的关系。

translated by 谷歌翻译

RandStainNA: Learning Stain-Agnostic Features from Histology Slides by Bridging Stain Augmentation and Normalization

Yiqing Shen , Yulin Luo , Dinggang Shen , Jing Ke

分类：计算机视觉

2022-06-25

在数字组织病理学分析中，污渍变化通常会降低基于深度学习的方法的概括能力。两项单独的建议，即染色标准化（SN）和染色增强（SA），已聚焦以减少概括错误，在此，前者使用模板图像减轻了不同医疗中心的污渍转移，后者则丰富了后者的污渍样式，并通过污染中心的误差。模拟更多的污渍变化。但是，它们的应用是由选择模板图像和不现实样式的构建的界定。为了解决这些问题，我们将SN和SA与新颖的Randstainna方案统一，该方案在可行的范围内限制了可变污渍样式，以训练污渍不可知论的深度学习模型。 Randstainna适用于在颜色空间集合中染色归一化，即HED，HSV，实验室。此外，我们提出了一个随机的颜色空间选择方案，以提高性能。我们通过两个诊断任务，即具有各种网络骨架的诊断任务，即组织亚型分类和核分割。拟议的Randstainna可以始终如一地提高概括能力，使我们的模型可以应对具有不可预测的污渍样式的更传入的临床数据集，因此所提出的Randstainna的性能优势可以始终如一地提高概括能力。这些代码可从https://github.com/yiqings/randstainna获得。

translated by 谷歌翻译

Online Distillation with Mixed Sample Augmentation

Yiqing Shen , Liwu Xu , Yuzhe Yang , Yaqian Li , Yandong Guo

分类：计算机视觉

2022-06-24

混合样品正则化（MSR），例如混合或cutmix，是一种强大的数据增强策略，可以推广卷积神经网络。先前的经验分析说明了MSR与传统的离线知识蒸馏（KD）之间的正交性能增长。更具体地说，可以通过MSR参与顺序蒸馏的训练阶段来增强学生网络。然而，MSR和在线知识蒸馏之间的相互作用，这是一个更强的蒸馏范式，在那里，一群同伴互相学习的合奏仍然没有探索。为了弥合差距，我们首次尝试将cutmix纳入在线蒸馏中，我们从经验上观察到了重大改进。在这个事实的鼓舞下，我们提出了一个更强大的MSR，专门用于在线蒸馏，称为Cut^nMix。此外，一个新颖的在线蒸馏框架是在切割^nmix上设计的，以通过功能水平相互学习和自我启动的老师来增强蒸馏。对CIFAR10和CIFAR100进行六个网络体系结构的全面评估表明，我们的方法可以始终超过最先进的蒸馏方法。

translated by 谷歌翻译

How GNNs Facilitate CNNs in Mining Geometric Information from Large-Scale Medical Images

Yiqing Shen , Bingxin Zhou , Xinye Xiong , Ruitian Gao , Yu Guang Wang

分类：计算机视觉

2022-06-15

Gigapixel Medical图像提供了大量的数据，包括形态学纹理和空间信息。由于组织学的数据量表较大，深度学习方法作为特征提取器起着越来越重要的作用。现有的解决方案在很大程度上依赖卷积神经网络（CNN）进行全局像素级分析，从而使潜在的局部几何结构（例如肿瘤微环境中的细胞之间的相互作用均未探索。事实证明，医学图像中的拓扑结构与肿瘤进化密切相关，可以很好地表征图。为了获得下游肿瘤学任务的更全面的表示，我们提出了一个融合框架，以增强CNN捕获的全局图像级表示，并使用图形神经网络（GNN）学习的细胞级空间信息的几何形状。融合层优化了全局图像和单元图的协作特征之间的集成。已经开发了两种融合策略：一种具有MLP的融合策略，这很简单，但通过微调而有效，而Transformer获得了融合多个网络的冠军。我们评估了从大型患者群体和胃癌策划的组织学数据集中的融合策略，以完成三个生物标志物预测任务。两种型号的表现都优于普通CNN或GNN，在各种网络骨架上达到了超过5％的AUC提高。实验结果在医学图像分析中将图像水平的形态特征与细胞空间关系相结合的必要性。代码可在https://github.com/yiqings/hegnnenhancecnn上找到。

translated by 谷歌翻译

Receding Horizon Inverse Reinforcement Learning

Yiqing Xu , Wei Gao , David Hsu

分类：机器学习 | 人工智能

2022-06-09

逆强化学习（IRL）试图推断出一种成本函数，以解释专家演示的基本目标和偏好。本文介绍了向后的地平线逆增强学习（RHIRL），这是一种新的IRL算法，用于具有黑盒动态模型的高维，嘈杂，连续的系统。 Rhirl解决了IRL的两个主要挑战：可伸缩性和鲁棒性。为了处理高维的连续系统，Rhirl以退缩的地平线方式与当地的专家演示相匹配，并将其“针迹”一起“缝制”本地解决方案以学习成本；因此，它避免了“维度的诅咒”。这与早期的算法形成鲜明对比，这些算法与在整个高维状态空间中与全球范围内的专家示威相匹配。为了与不完美的专家示范和系统控制噪声保持强大的态度，Rhirl在轻度条件下学习了与系统动力学的状态依赖性成本函数。基准任务的实验表明，在大多数情况下，Rhirl的表现都优于几种领先的IRL算法。我们还证明，Rhirl的累积误差随任务持续时间线性增长。

translated by 谷歌翻译

Seamless Interaction Design with Coexistence and Cooperation Modes for Robust Human-Robot Collaboration

Zhe Huang , Ye-Ji Mun , Xiang Li , Yiqing Xie , Ninghan Zhong , Weihang Liang , Junyi Geng , Tan Chen , Katherine Driggs-Campbell

分类：机器人

2022-06-03

机器人需要多种互动模式来与人类在复杂的工业任务中进行稳健合作。我们开发了共存和共存（可可）人类机器人协作系统。共存模式使机器人能够在共享空间中独立地与人类在不同子任务上合作。合作模式使机器人能够遵循人类的指导并恢复失败。人类意图跟踪算法将人类和机器人运动测量作为输入，并提供了交互模式的开关。我们证明了可可系统在用例中类似于现实世界多步组件任务的有效性。

translated by 谷歌翻译

Hierarchical Intention Tracking for Robust Human-Robot Collaboration in Industrial Assembly Tasks

Zhe Huang , Ye-Ji Mun , Xiang Li , Yiqing Xie , Ninghan Zhong , Weihang Liang , Junyi Geng , Tan Chen , Katherine Driggs-Campbell

分类：机器人

2022-03-17

协作机器人需要有效的人类意图估算，以便在诸如人类意图不断变化的工业集会等结构化任务中安全，平稳地与人类合作。我们提出了意图跟踪的概念，并引入了一个协作机器人系统，该系统同时跟踪层次级别的意图。跟踪高级意图以估计人类的相互作用模式，并使机器人能够（1）避免与人碰撞以最大程度地减少中断或（2）帮助人类纠正失败。低级意图估算为机器人提供了特定任务的信息，以进行并发执行。我们在UR5E机器人上实现了该系统，并通过消融试验性研究在组装用例中展示了强大的，无缝和人体工程学的人类机器人协作。

translated by 谷歌翻译